La réponse de Google : Les avancées de l'IA avec les projets Astra, Veo et Gemini
Ceci est la réponse de Google à OpenAI.
Une IA générale, une IA qui peut vraiment être utilisée au quotidien, ce serait embarrassant de tenir une conférence de presse si ce n'est pas comme cela maintenant.
Tôt le matin du 15 mai, la conférence des développeurs Google I/O, appelée "Gala du Printemps du Monde Technologique", a officiellement commencé. Combien de fois l'intelligence artificielle a-t-elle été mentionnée dans le discours principal de 110 minutes ? Google a compté :
Oui, l'IA est mentionnée à chaque minute.
La compétition de l'IA générative a récemment atteint un nouveau sommet, et le contenu de cette conférence I/O tourne naturellement autour de l'intelligence artificielle.
« Il y a un an sur cette scène, nous avons partagé pour la première fois nos plans pour le modèle multimodal natif, Gemini. Cela a marqué la nouvelle génération de l'I/O », a déclaré le PDG de Google, Sundar Pichai. « Aujourd'hui, nous espérons que tout le monde pourra bénéficier de la technologie de Gemini. Ces fonctionnalités révolutionnaires s'intégreront dans la recherche, les images, les outils de productivité, les systèmes Android, et bien d'autres aspects. »
Actuellement, les versions 1.5 Pro et 1.5 Flash sont disponibles en aperçu public et offrent une fenêtre de contexte de 1 million de jetons dans Google AI Studio et Vertex AI. Maintenant, 1.5 Pro fournit également une fenêtre de contexte de 2 millions de jetons pour les développeurs utilisant l'API et les clients de Google Cloud via une liste d'attente.
De plus, Gemini Nano a été élargi de l'entrée de texte pur à l'entrée d'image. Plus tard cette année, à partir de Pixel, Google lancera le multimodal Gemini Nano. Cela signifie que les utilisateurs mobiles peuvent non seulement traiter des entrées de texte, mais aussi comprendre plus d'informations contextuelles, telles que des visuels, du son et du langage parlé.
La famille Gemini accueille un nouveau membre : Gemini 1.5 Flash
Le nouveau 1.5 Flash a été optimisé pour la vitesse et l'efficacité.
Nouvelle génération de modèle de grande taille open source Gemma 2
Aujourd'hui, Google a également publié une série de mises à jour pour le modèle de grande taille open source Gemma – Gemma 2 est là.
Comme introduit, Gemma 2 utilise une nouvelle architecture visant à atteindre des performances et une efficacité révolutionnaires, les nouveaux paramètres de modèle open source sont de 27B.
En ce qui concerne les vidéos longues, Veo peut produire des vidéos de 60 secondes ou même plus. Il peut le faire grâce à un seul prompt ou en fournissant une série de prompts qui racontent ensemble une histoire. C'est essentiel pour l'application des modèles de génération vidéo dans la production cinématographique et télévisuelle.
Veo est basé sur le travail de Google dans la génération de contenu visuel, y compris le Réseau de Requête Génératif (GQN), DVD-GAN, Image-à-Vidéo, Phenaki, WALT, VideoPoet, Lumiere, et d'autres.